Adam
# Tag:
- Source/KU_ML2
Adam(Adaptive Moment Estimation)
Momentum Gradient Descent과 Adaptive Learning Rates을 적절하게 혼용한 방법으로, 가장 좋은 방법으로 현재 평가받고 있다.
은 가 거의 0에 가까워져서 분모가 0에 가까운 값이 됐을 때, 수치적 오류를 방지하기 위한 term이다.
- , when , : momentum
- : 과 같이 작을 때는 을 복구시키고, 가 커지면 분모가 1에 가까워져 의 값이 그대로 사용되게 한다.
- , when , : Learning Rate를 조절하는 항이다.
- : 마찬가지로 초반에는 최근값을 반영시키고, 가 커지면 이전 값을 거의 그대로 사용한다.